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的 LSBG 样 本 供 天 文学 家 深入 研究 . 
Zwicky 四 于 1957 年 首次 提出 存在 低 表 面 亮度 
星系 , 并 定义 其 是 比 黑暗 夜空 更 暗 的 星系 . Free- 
manl3 于 1970 年 第 1 次 发 现 低 表 面 亮 度 星 系 , 他 
在 研究 时 发 现 有 28 个 盘 星 系 B 波 段 中 心 面 亮度 
在 (21.65 + 0.3) mag:arcsec 悦 的 范围 内 , 此 后 该 
规则 被 称 为 Freeman 规 则 ，McGaugh 由 于 1996 年 
详细 地 划分 了 低 表 面 亮度 星系 的 B 波 段 中 
心 面 亮度 的 取 值 范围 认为 取 值 在 22.75- 


一 一 下 


24.5 mag'arcsec -2 之 间 的 星系 为 低 表 面 亮度 星 


Micron All Sky Survey) 中 选择 了 一 个 更 大 的 样本 
约 3800 个 红外 低 表 面 亮 度 星 系 , 并 表明 在 这 些 星 
系 中 没有 明显 的 红色 星系 群 . 2008 年 Zhong 等 19 在 
SDSS-DR4 (Data Release 4) 主 星系 样本 中 发 现 了 
12282 个 近 正 向 低 表面 亮度 星系 大 样本 并 展示 了 这 
些 样 本 B 波 段 的 中 心 面 亮度 、 标 长 、 累 积 星 等 、 颜 
色 和 距离 . 

随 着 巡天 项 目的 不 断 开展 , 近 几 十 年 来 已 经 确 
定 了 大 量 的 LSBG 样 本 . 2011 年 , HKA (Arecibo 
Legacy Fast ALFA Survey, ALFALFA) 项 目 提 供 了 
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系 . Inpey 和 Bothun 回 则 选择 定义 低 表 面 亮度 星 
系 是 B 波 段 中 心 面 亮度 比 23.0 magarcsec 悦 更 上 暗 
的 星系 . 而 Imnpey 等 品 和 Ceccarelli 等 站 所 设置 的 阔 
值 在 22.0-23.0 mag .arcsec- 2 的 范围 内 . 对 于 低 表 
面 亮 度 星 系 通常 是 通过 B 波 段 的 中 心 面 亮度 
低 于 某 个 阔 值 来 定义 的 ,该 阀 值 通常 在 21.5- 
24.5 mag: arcsec” 2 的 范围 内 , 但 如 今 此 阔 值 也 没 
有 统一 的 标准 . 除 B 波 段 外 ，r/R 波 段 gE9 和 Ks 波 
段 00 也 可 以 用 于 定义 LSBG: 

继 Freemanl3l 第 1 次 找到 低 表 面 亮度 星系 以 来 ， 
越 来 越 多 的 中 心 面 亮度 较 低 的 低 表 面 亮度 星系 
逐渐 被 发 现 . 1996 年 , Impey 等 上 在 近 域 宇宙 的 巡 
天 项 目 中 发 现 了 693 个 低 表面 亮度 星系 . 1999 年 ， 
Bergvall 等 (9 基于 红外 J、H、K 波 段 面 源 测 光 发 现 
14 个 赣 色 低 表 面 亮度 星系 . 2000 年 ,Bell 等 上 3 对 26 


个 河 外 HI 线 源 40% 的 星 表 (aw.40 星 表 )P29. 该 星 
适用 于 寻找 LSBG, 因为 LSBG 被 认为 含有 丰富 HI 
气体 . 利用 a.40 星 表 , 2015 年 Du 等 2 发 现 了 1129 个 
LSBG, 它们 都 是 非 侧 向 星系 , 本 文 所 利用 的 数据 集 
即 为 这 些 样 本 . 2018 年 , Greco 等 2 提供 了 781 个 低 
表面 亮度 星系 的 候选 星 表 , 这 781 个 低 表面 亮度 星 
系 的 颜色 跨越 红色 g 一 i > 0.64 及 蓝 色 g 一 i < 0.64 
(g 一 i 表示 g 波 段 星 等 值 减 去 波段 星 等 值 的 差 ) 并 表 
明 低 表面 亮度 星系 的 表面 亮度 分 布 受 颜色 的 影响 
HIK. 2021 年 , Tanoglidis 等 RB 引 提 供 了 来 自 于 上 暗 能 量 
巡天 的 23790 个 扩展 的 低 表面 亮度 星系 的 候选 星 表 . 
本 文选 取 其 中 一 部 分 最 终 验证 算法 的 性 能 . 
现 如 今 深 度 学 习 的 发 展 迅速 , 各 个 领域 都 进入 
大 数据 时 代 , 天 文 领域 也 不 例外 , 尤其 是 将 深度 学 
习 应 用 于 海量 天 文 观 测 数据 的 分 类 研究 中 , 表现 出 


个 低 表面 亮度 星系 在 光学 和 近 外 方向 进行 了 深度 
成 像 的 研究 . 1996 年 , Jong[9 发 现 螺旋 星系 中 的 低 
表面 亮度 星系 并 研究 了 此 螺旋 星系 特性 之 间 的 关 
联 . 2002 年 , Galaz 等 865 在 Impey 等 上 的 星 表 中 取出 
88 个 星系 的 J 和 Ks 波 段 近 红外 成 像 数 据 并 研究 样本 
特性 的 相关 性 . 2004 年 , Kniazev 等 6 研究 了 一 种 
算法 来 试图 从 斯 隆 数 字 化 巡天 (Sloan Digital Sky 
Survey，SDSS) 观 测 图 像 中 搜寻 LSBG， 的 
测试 样本 为 Impey 等 上 4 星 表 中 与 EDR (Early Data 
Release) #1 4 HJ 4 4S, 并 用 APM (Astronomical 
Plate Measuring) 样 本 检验 其 算法 , 最 终 得 到 的 检 
测 率 为 96.5%, 并 发 现 了 42 个 新 低 表 面 亮度 星系 . 在 
1997 年 ONeil 等 上 在 巨蟹 座 、 飞 马 座 星系 团 和 巨 


其 使 
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较为 理想 的 效果 . 但 将 目标 检测 应 用 于 寻找 低 表 
面 亮度 星系 还 比较 少 , 2021 年 ，Tanoglidis 等 2 使 
用 卷 积 神经 网 络 Mask R-CNN (Region-based Con- 
volutional Neural Networks) 检 测 和 掩 膜 光学 巡天 
图 像 中 的 伪 影 和 散射 光 伪 影 , 表现 出 不 错 的 效果 . 
2022 年 Yi 等 2 将 目标 检测 算法 运用 于 检测 低 表 面 
亮度 星系 并 取得 了 不 错 的 效果 , 其 实验 的 召回 率 达 
到 95.75%. 

当前 目标 检测 算法 主要 分 为 两 大 类 型 , 一 种 
为 一 阶段 , 一 阶段 目标 检测 算法 不 需要 产生 候选 
框 , 其 中 最 具 代 表 性 的 为 YOLO (You Only Look 
Once) 系 列 算法 模型 ; 另 一 种 为 二 阶段 , 二 阶段 是 先 
算法 生成 候选 框 , 再 对 样本 进行 分 类 , 其 中 最 具 
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jami 


壁 定义 的 低 密度 区 域 中 发 现 129 个 偏 红 低 表 面 亮 
度 星 系 样本 . 2003 年 Ragaigne 等 nS 从 2MASS (Two 


代表 性 的 为 Faster R-CNNE9 算 法 模型 . 目标 检测 
算法 自 2014 年 以 来 的 主要 发 展 历程 如 图 1 所 示 ，. 
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星系 的 自 


本 文 的 目的 是 研究 高 效 的 目标 检测 算法 来 搜 
寻 相 对 不 容易 被 发 现 的 低 表 面 亮 度 星系 . 流程 如 
图 2 所 示 , 具体 步 又 如 下 : 


动 搜 索 算 法 一 YOLOX-CS 


(1) 通 过 低 表 面 亮度 星系 星 表 在 SDSS DR16 官 
网 下 载 对 应 的 测 光 图 像 , DR16 官 网 网 址 为 : https: 
//data.sdss.org/sas/dr16/; 
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图 1 目标 检测 算法 的 主要 发 展 历程 
Fig.1 Main important development of target detection algorithm 
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Fig.2 Workflow chart 


(2) 下 载 得 到 官方 、r、i 伪 彩 图 及 g、r、i 波 
段 的 灵活 图 像 传输 系统 (Flexible Image Transport 
System, FITS) 格 式 文 件 , 运用 Python 程序 将 低 表 
面 亮度 星系 的 亦 经 和 赤 纬 转换 为 像素 坐标 标注 出 
图 像 中 的 低 表 面 亮 度 星系 并 裁剪 , 再 运用 图 形 图 
像 注释 工具 labelImg 对 裁剪 后 的 图 像 进行 标注 并 
保存 为 VOC (Visual Object Classes) 格 式 . 最 后 将 


裁剪 标注 后 的 低 表 面 亮度 星系 按 约 8:2 的 比例 划 
分 为 训练 集 和 测试 集 . 同时 利用 深度 卷 积 生成 对 
抗 网 络 (Deep Convolutional Generative Adversar- 
ial Networks, DCGAN) 扩 充 数据 集 作为 待 使 用 的 
第 2 个 数据 集 ; 

(3) 对 要 输入 进行 训练 的 图 像 进行 Mosaic (4 张 
不 同 的 图 像 经 处 理 变 换 后 拼接 成 一 张 图 像 ) 数 据 增 
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强 和 随机 缩放 、 宽 高 比 调整 等 数据 预 处 理 . 接 下 来 
运用 不 同 的 目标 检测 算法 对 低 表面 亮度 星系 进行 
识别 , 并 选 出 检测 效果 最 优 的 算法 即 YOLOX (You 
Only Look Once X); 

(4) 通 过 预 训练 、 改 变 优 化 器 和 加 入 不 同 的 注 
意 力 机 制 模 块 、 扩 充 数据 集 等 一 系列 的 操作 , 提出 
了 适用 于 搜寻 低 表 面 亮度 星系 的 YOLOX-CS (You 
Only Look Once version X-CS) 算 法 , 并 将 算法 应 
于 其 他 数据 集中 进行 验证 ; 
(5) 利 用 算法 在 SDSS 发 布 的 3615 及 3647 两 个 天 
区 测 光 数 据 中 共 找 到 765 个 低 表 面 亮 度 星 系 候选 体 . 

本 文 写作 结构 如 下 : 第 2 节 介绍 了 本 文 数据 的 
选取 、 数 据 集 的 划分 及 图 像 预 处 理 ; 第 3 节 说 明 
YOLOX 算 法 的 选择 实验 理由 以 及 YOLOX 的 改进 ; 
第 4 节 重 点 进行 了 实验 结果 分 析 , 包括 算法 评估 指 
标 、 实 验 参 数 设 置 、 实 验 环 境 、5 种 经 典 目 标 检 测 
算法 实验 结果 、 改 进 算 法 实验 结果 及 其 验证 ; 最 后 
在 第 5 节 将 本 文 算法 应 用 在 SDSS 部 分 天 区 得 到 

部 分 新 的 低 表面 亮度 星系 候选 体 . 

2 数据 

SDSS DR16R7 记 录 了 阿 帕 奇 天 文 台 星 系 演化 
实验 2 (Apache Point Observatory Galactic Evolu- 
tion Experiment-2, APOGEE-2) 和 扩展 重子 振荡 
光谱 巡天 (Extended Baryon Oscillation Spectro- 
scopic Survey, eBOSS) 的 数据 发 布 . eBOSS 发 布 了 
860935 个 星系 和 类 星体 的 新 光谱 , APOGEE-2 包 括 
了 751864 个 新 的 红外 光谱 . 由 于 SDSS 数 据 的 发 布 
是 累积 的 , DR16 包 括 了 所 有 曾 发 布 过 的 数据 . 

本 节 主 要 介绍 数据 的 选取 , 数据 集 的 制作 、 扩 
充 与 划分 , 数据 增强 及 图 像 预 处 理 . 


2.1 ”数据 准备 

SDSS 官 方 可 以 获取 的 数据 为 、g、r、i、z 波 
段 的 数据 , 但 u、z 波 段 包 含 的 有 用 信息 非常 少 , 多 
为 近 紫 外 和 近 红 外 , 故 本 文选 取 g、r、i 波 段 数 据 合 
成 的 图 像 和 FITS 文 件 . 在 文献 [21] 中 得 到 低 表 面 
亮度 星系 星 表 , 此 星 表 是 在 40% 的 ALFALFA 天 空 
区 域 与 5DSS DR7 交 叉 共享 覆盖 区 即 aw.40-SDSS 


= 
z 


DR7 中 搜寻 得 到 通过 星 表 中 的 赤 经 和 赤 纬 
在 SDSS DR7 网 站 中 来 搜索 到 相对 应 的 FITS 文 
WE, 对 g、r、i 波 段 的 FITS 文 件 进行 先 转 彩 色 图 
像 再 转 灰 度 图 像 最 后 合成 三 通道 图 像 ， 由 
于 DR7 官 方 的 像素 值 为 0-65535， 而 低 表 面 亮 
度 星 系 的 像素 值 偏 低 ， 故 这 样 获 得 的 图 像 丢 
失掉 很 多 低 表面 亮度 星系 的 特征 信息 . 考虑 
到 DR16 和 DR7, 它们 的 原始 数据 是 一 样 的 , 只 是 
对 原始 数据 进行 处 理 的 软件 版 本 不 同 DR16 使 
用 的 数据 处 理 软件 版 本 是 目前 为 止 最 稳定 的 ， 
最 终 以 DR16 数 据 为 准 . 数据 的 文件 名 由 run、 
camcol、feld、flter 这 4 个 字段 构成 , 例如 : DR7 文 
IFZ AfpC-run-filter-camcol-field.fit.gz; DR16 文 件 
名 为 frame-filter-run-camcol-field.fits.bz2. 所 以 通 
过 DR7 中 的 run、 camcol 及 field 可 以 在 DR16 找 到 
相同 的 最 新 处 理 的 数据 ,通过 这 种 方式 找到 
T110653kg n ;波段 官方 合成 的 图 像 以 及 g、 让 
i 波段 的 FITS 文 件 . 三 波段 图 像 同 样 可 以 使 用 文 
献 [28] 中 的 方法 进行 合成 . 通过 对 比 , 官方 合成 图 像 
更 能 体现 出 低 表 面 亮 度 星 系 的 特征 信息 , 而 且 官 方 
证 实 伪 彩 图 的 效果 与 真实 的 色彩 十 分 接近 , 故 最 终 
本 文 直接 将 官方 伪 彩 图 作为 数据 集 . 


2.2 图像 预 处 理 及 数据 集 的 划分 

在 SDSS DR16 官 方 网 站 上 所 下 载 的 天 文 图 像 
像素 大 小 为 2048 x 1489. 为 了 更 清晰 地 展示 其 形 
S, 图 3 展示 了 12 个 低 表面 亮度 星系 的 示例 , 图 片 
来 自 于 SDSS 官 网 (网 址 : http://skyserver.sdss.org/ 
dr16/en/tools/chart/navi.aspx) 目 标 天 体 的 预览 医 
像 , 其 中 E、N、W、S 是 指 东 、 北 、 西 、 南 4 个 方 
向 . 这 12 个 目标 天 体 的 原 天 文 图 像 由 左 向 右 、 由 上 
向 下 依次 为 : 
frame-irg-001035-2-0045; frame-irg-002126-2-0436; 
frame-irg-002126-4-0429; frame-irg-002126-6-0410; 
frame-irg-002391-5-0050; frame-irg-002566-3-0297; 
frame-irg-003015-6-0218; frame-irg-003525-4-0136; 
frame-irg-003631-6-0344; frame-irg-003836-4-0443; 
frame-irg-003841-3-0076; frame-irg-004649-5-0190. 
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本 文 将 图 像 根 据 目 


640 和 600 x 600 两 种 尺寸 大 小 分 


图 3 低 表 面 亮度 星系 图 像 示 例 


Fig.3 Examples of Low Surface Brightness Galaxy image 


标 所 在 位 置 裁剪 为 640 x 


别 适 用 于 YOLO 系 


列 算法 、CenterNetB29 和 Faster R-CNNB6] 算 法 , 这 


样 做 不 仅 能 够 让 图 像 大 小 适应 算法 要 求 ， 


而 且 能 提 


高 算法 的 特征 提取 能 力 . 首先 通过 将 目标 的 炙 经 和 


赤 纬 信息 转换 为 测 光 图 像 中 的 像素 坐标 ， 
目标 中 心 点 , 根据 目标 中 心 点 再 将 


x 640 和 600 x 600 两 种 像素 大 小 . 其 次 


中 心 点 像素 标 出 目标 


从 而 得 知 


图 像 裁 前 为 640 


民 据 目标 


FP 心 位 置 . 第 三 , 根据 标 出 的 


目标 中 心 位 置 对 裁剪 好 的 图 像 进 行 标注 获得 最 终 


的 数据 集 , 其 中 包含 所 有 训练 样本 及 标 沪 


件 . 由 于 本 文 数据 集 较 小 , 所 有 


的 xml 文 
的 样本 被 随机 划分 


为 两 个 部 分 , 训练 集 与 测试 集 比例 约 为 8:2, 即 训练 


集中 含有 884 个 样本 , 测试 集中 含有 222 个 样本 . 
由 于 数据 集 较 小 , 本 文 使 用 DCGANEB9 模 型 进 
行 数据 集 的 扩充 . 通过 统计 数据 集中 的 1106 张 图 
像 ， 只 有 49 张 超过 96 x 96 像 素 . 而 超过 96 x 96 像 
素 目标 的 特征 也 能 够 体现 在 96 x 96 像 素 的 图 像 中 . 
故 本 文 先 根 据 目 标 中 心 点 将 图 像 裁剪 为 96 x 96 像 
BK), 然后 使 用 DCGAN 模 型 训练 生成 新 的 样本 . 
在 2000 轮 次 的 训练 学 习 中 , 本 文选 取 了 效果 最 好 
轮 次 的 图 片 . 共 选 取 了 1000 个 目标 的 40 张 图 片 (每 
张 图 片 包含 25 个 目标 ), 图 片 像素 大 小 为 640 x 640, 
图 4 展示 了 其 中 两 张 图 片 . 将 它们 放 入 数据 集 以 增 
加 训练 模型 的 特征 提取 能 力 , 这 样 数据 集 共 1146 张 
图 片 , 包括 2106 个 标注 的 目标 . 此 数据 集中 所 有 的 
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半 本 按照 约 8:2 的 比例 
证 集 , 即 训练 集 


= 


Fig.4 Images generated by DCGAN (each small image is a composite image of a single target source) 


本 文 使 用 Mosaic 数 据 


多 样 性 . 在 每 一 批 次 训 


增强 , Mosaic 抽 取 训 练 集中 的 4 张 图 
水 平 翻转 , 然后 将 经 过 变换 后 
片 拼接 在 一 起 形成 一 张 初始 数 和 


小 缩放 、 
的 4 张 图 


色 域 变换 、 


随机 划分 为 训练 集 和 训练 验 
中 含有 917 个 样本 , 训练 验证 集 


pE 


图 4 DCGAN 生 成 的 图 像 (每 


增强 


练 前 使 


方法 来 提高 数据 的 
此 方法 进行 数据 
进行 随机 大 


集中 没有 


有 229 个 样 


样 . 


个 小 图 都 是 单 


的 


小 、 


图 


aA 
增 


图 片 输入 模 3 


片 过 拟 合 的 可 能 . 
图 像 的 改变 而 改变 . 


会 随 着 
强 后 的 图 


Fr. 


标 源 合成 图 像 ) 


型 进行 训练 . 每 一 


次 训练 
颜色 都 与 之 前 不 同 , 极 大 降低 了 反复 训练 相同 


本 . 测试 集 和 第 1 个 数据 集中 的 测试 集 一 


图 片 的 大 


在 增强 图 像 时 目标 


EE 的 位 置 也 
图 5 为 经 过 Mosaic 数 据 


图 5 经 过 Mosaic 数 据 增强 后 的 图 片 


Fig.5 Images enhanced by Mosaic data 
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为 了 提高 算法 的 泛 化 能 力 , 本 文 对 训练 集 样本 
进行 了 预 处 理 (图 6 为 其 中 一 个 样本 预 处 理 后 图 片 
的 示例 ), 步骤 如 下 : 先 在 (0.25, 2) 之 间 随 机 缩放 , 然 


后 在 (0.5, 1.9) 之 间 随 机 扭曲 宽 高 比 , 这 些 步 又 氏 不 
会 改变 源 的 类 型 ， 


6 “将 人 ame-irg-002126-2-0436 根 据 目标 所 在 位 置 裁剪 为 640 x 640 像 素 之 后 进行 预 处 理 得 到 的 图 像 


Fig.6 Preprocessed frame-irg-002126-2-0436 image after cropping to 640 x 640 pixels according to the location of the target 


3 Bs 
3.1 YOLOX 


YOLOX 是 Ge 等 8 提出 的 单 阶段 目标 检测 算 
法 . 其 主要 分 为 3 个 部 分 , 主干 网 络 为 CSPDarknet 
(Cross Stage Partial Darknet), 中 间 部 分 为 特征 
金字 塔 网 络 , 最 终 部 分 为 YOLO Head. CSPDark- 
net 内 部 的 主要 特征 提取 利用 残 差 结 构 和 CSPNet 
(Cross Stage Partial Network) 结 构 B3, 并 在 其 中 使 
] T fEYOLOv5 (https://github.com/ultralytics-/ 
yolov5) 中 用 到 的 Focus 结 构 , 可 以 有 效 减 小 参数 量 ， 
提升 网 络 计算 速度 . 图 7 为 CSPNet 和 YOLO Head 
的 结构 图 , 其 中 , CBS 由 卷 积 、 批 量 标准 化 (Batch 
Normalization, BN) 和 SiLU (Sigmoid-weighted Li- 
near Unit) 激 活 函 数组 成 ,Res Unit 为 残 差 单元 ， 
Concat 是 对 不 同 分 支 的 特征 进行 拼接 ; Reg、Cls、 
Obj 为 3 个 预测 结果 . CSPNet 结 构 如 图 7 左边 所 示 ， 
分 为 两 个 部 分 , 一 部 分 在 卷 积 操作 后 继续 残 差 单元 
的 堆 靶 即 进 一 步 的 特征 提取 , 而 另 一 部 分 只 经 卷 积 


操作 少量 处 理 , 之 后 将 两 部 分 拼接 进行 特征 融合 ， 
这 种 网 络 结构 可 以 充分 利用 不 同 特征 层 之 间 的 关 
系 , 有 效 地 减少 信息 丢失 和 梯度 消失 的 问题 , 提升 
网 络 的 鲁 棒 性 . 


图 7 CSPNetkYOLO Head 结 构 


Fig.7 CSPNet and YOLO Head structure 


CSPDarknet 还 使 用 了 空间 金字 塔 池 化 结构 
(Spatial Pyramid Pooling, SPP)B3, 此 结构 可 以 提 
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升 网 络 的 感受 野 . 最 终 在 此 网 络 结构 中 获取 到 3 个 
不 同位 置 的 特征 层 作 为 有 效 特征 层 并 输入 到 下 一 
部 分 网 络 中 . 中 间 部 分 即 特征 金字 塔 网 络 将 主干 网 
络 中 输出 的 3 个 特征 层 进 行 特 征 融 合 , 以 获得 不 同 
尺度 的 特征 信息 . 这 一 部 分 依旧 沿用 路 径 聚 合 网 
络 (Path Aggregation Network, PANet)!°4) #7437 
尺度 特征 层 自 上 而 下 和 自 下 而 上 相互 融合 从 而 获 
取 更 为 丰富 的 特征 . YOLOX 的 解 耦 头 有 所 变化 ， 
YOLOv4、YOLOv5 的 YOLO Head 所 用 的 分 类 和 
回归 是 在 一 个 1 x 1 卷 积 里 实现 , YOLOX 中 YOLO 
Head 的 分 类 和 回归 被 分 别 实现 . 如 图 7 右边 所 示 ， 
此 图 中 右边 为 分 类 , 左边 为 回归 , 在 对 3 个 特征 层 进 
行 卷 积 操作 后 得 到 3 个 预测 结果 , Reg 是 用 于 判断 特 
征 点 的 回归 参数 , 调整 回归 参数 后 可 以 获得 预测 


a 


H 


X 


My 
F 


报 


特征 直接 与 多 个 残 差 连接 , 这 对 解决 梯度 消失 的 问 
题 有 不 错 的 效果 , 但 将 特征 信息 传输 到 更 深 网 络 
的 同时 也 会 将 噪声 一 起 传输 到 更 深 的 网 络 . 为 了 
使 这 个 问题 得 到 一 定 程 度 的 解决 并 使 得 网 络 更 关 
注 待 测 目标 , 忽略 不 必要 的 信息 , 需要 在 主干 网 络 
的 3 个 特征 层 后 加 入 注意 力 机 制 . 注意 力 机 制 能 够 
升 特征 抽取 的 准确 性 , 针对 不 同 的 输入 分 配 不 
同 的 权重 , 最 后 输出 结果 时 再 赋予 合适 的 权 值 , 是 
深度 学 习 过 程 中 模仿 人 脑 的 注意 力 模型 . 目前 注 
意 力 机 制 主要 分 为 通道 注意 力 机 制 和 空间 注意 力 
机 制 , SE (Squeeze-and-Excitation)B9 和 ECA (Ef 
ficient Channel Attention)B"] 注 意 力 机 制 为 通道 注 
意 力 机 制 , CBAM (Convolutional Block Attention 
Module)B 引 和 CA (Coordinate Attention)BB9 为 通 
道 注意 力 机 制 和 空间 注意 力 机 制 混合 使 用 . CBAM 


HE; Obj 用 于 判断 特征 点 是 否 包 含 目 标 源 ; Cls 用 于 

分 类 , 判断 特征 点 所 包含 的 目标 类 型 . 
YOLOX 与 之 前 YOLO 系 列 算法 不 同 之 处 还 有 

不 使 用 先 验 框 , 所 以 需要 SimOTA (Sim Optimal 


和 CA 注意 力 机 制 更 关注 于 通道 与 空间 之 间 的 联系 ， 
故 加 入 更 能 抓 住 目标 特征 . 图 8 为 CBAM 注 意 力 机 
制 的 结构 . 图 9 为 改进 后 的 YOLOX 模 型 结构 , 其 中 


Transport Assignment) [J T ERK ii WE, SimOTA 是 
OTA (Optimal Transport Assignment) fj — ^4 
精简 提升 版 本 . OTA 是 可 以 更 好 地 获得 全 局 最 优 的 
标签 分 配 策略 . 

本 文中 最 终 使 用 YOLOX 作 为 接 下 来 进行 改进 
的 目标 检测 算法 , 文中 4.3 节 具体 说 明了 理由 . 


改进 后 的 模型 架构 


3.2 


括号 内 的 数字 代表 当前 层 三 维 像素 和 矩阵 的 大 小 , Bil 
如 Input (640, 640, 3) 为 输入 具有 640 个 像素 高 度 、 
640 个 像素 宽度 和 3 个 通道 的 图 像 . Focus 是 每 隔 一 
个 像素 取 一 个 值 , 从 而 得 到 4 个 独立 的 特征 层 , 使 
得 输入 通道 数 扩大 了 4 倍 , 由 原来 的 3 通道 变 为 12 通 
道 , 像素 宽 高 度 减 半 , 即 变 成 了 具有 12 个 特征 图 的 
特征 层 , 每 个 特征 图 的 大 小 为 320 x 320; Conv2D_ 
BN_SiLU 由 二 维 卷 积 、BN 和 SiLU 激 活 函 数 构成 ， 


YOLOX 的 CSPDarknet 主 干部 分 有 多 个 残 差 


网 络 , 并 且 CSP (Cross Stage Partial) 层 会 将 输入 


通过 滑动 卷 积 核对 输入 的 特征 图 进行 卷 积 运算 , 从 
而 进一步 提取 特征 . 


Convolutional Block Attention Module 


Channel 


Input Feature Attention 


Fig.8 Structure of CBAM attention mechanism 


Spatial Refined Feature 
Attention 


Module 


BAM 注 意 力 机 制 结构 [831 
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在 深度 学 习 算法 中 , 两 个 主要 因素 影响 模 
型 性 能 : 模型 结构 和 优化 方法 . 而 其 中 优化 方 


法 会 直接 影响 深度 学 习 算 法 的 速度 及 性 能 ， 因 
此 研究 能 够 改进 深度 学 习 算法 性 能 的 优化 策 


略 是 有 必要 的 . 目前 大 多 数 的 优化 算法 都 是 
迭代 实现 的 , 随机 梯度 下 降 (Stochastic Gradient 
Descent, SGD)、SGDM (Stochastic Gradient De- 
scent with Momentum)、 自 适应 学 习 率 的 梯度 
下 降 算 法 (Adaptive Gradient, AdaGrad)、 均 方 根 
传递 (Root Mean Square Prop, RMSprop) 和 Adam 
(Adaptive moment estimation) 为 现 阶段 常用 的 深 
度 学 习 优 化 器 . SGD 是 目前 神经 网 络 最 基础 的 
ARIE. SGDM 是 在 SGD 的 基础 上 增加 了 一 阶 
动量 ; Adagrad 和 RMSprop 都 是 在 SGD 的 基础 上 增 
加 了 二 阶 动量 ; Adam 是 结合 SGDM 的 一 阶 动量 和 
RMSprop 的 二 阶 动量 的 算法 . 文献 [40] 中 的 结果 表 
明 Adam 具 有 较 好 的 优化 效果 , SGD 耗 时 较 久 , 但 
其 训练 过 程 中 损失 值 下 降 速 度 最 快 . 故 最 终 选 
择 SGD、RMSprop 和 Adam 这 3 个 优化 器 进行 实验 . 


A ”实验 结果 与 分 析 
4.1 ”算法 评估 指标 

本 文选 择 通 用 的 准确 率 、 召 回 率 、F1 值 和 AP 
(Average Precision) 值 作为 检测 低 表 面 亮 度 星系 的 
算法 的 评价 指标 ( 见 表 1). TP 值 为 与 Ground truth 
区 域 的 IOU (Intersection Over Union) 大 于 等 于 0.5 
所 得 到 的 值 , FP 值 为 IOU 小 于 0.5 所 得 到 的 值 . 各 指 
标 计算 公式 如 下 : 准确 率 表示 在 样本 中 预测 正确 的 
比率 : 


| 


TP 


=. 1 
TP + FP (1) 


Precision = 


系 的 自 


动 搜 索 算法 一 YOLOX-CS 


表 1 评价 指标 
Table 1 Evaluation indicator 
Real LSBG Unreal LSBG 
False 
Positive (FP) 
True 
Negative (TN) 


Forecast 
Right 


prediction 


True 
Positive (TP) 
False 
Negative (FN) 


Wrong 


prediction 


率 表示 在 样本 中 实际 正确 的 比率 : 


El 


TP 


外 全 一. 
Reca TP FN 


F1 值 通过 准确 率 和 召回 


Kits 


得 到 : 


Fle 2 x Precision x Recall 


(3) 


Precision + Recall 


pni 


m 


率 点 上 对 应 的 准确 率 的 


AP 值 表示 在 不 同 召 

平均 值 , 也 可 以 表示 为 PR (Precision-Recall) 曲 线 
下 面 的 面积 . 其 中 PR 曲线 的 纵 坐 标 为 Precision, 横 
坐标 为 Recall. AP 值 越 大 , 平均 准确 率 越 高 , PR 曲 
线 的 面积 越 大 , 算法 的 性 能 越 好 . 
对 于 本 文 目 标的 评估 , 因为 所 选取 的 样本 为 
Du 等 2 所 公布 的 低 表 面 亮 度 星 系 , 这 些 源 不 是 基 
于 光学 巡天 得 到 的 , 而 是 基于 中 性 氧 巡 天 得 到 的 . 
因此 在 SDSS 图 像 中 存在 一 部 分 未 被 标记 的 目标 样 
本 , 而 准确 率 、 召 回 率 、F1 及 AP 值 的 假设 条 件 是 
图 像 中 所 有 低 表 面 亮度 星系 样本 都 已 被 标注 . 因此 
样本 中 实际 正确 的 比率 即 召回 率 更 能 体现 出 其 正 
确 性 , AP 值 其 次 , 准确 率 与 F1 也 能 一 定 程度 上 验证 
算法 的 性 能 . 
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Input(640,640,3) | 


Focus(320,320,12) 


v 
Conv2D_BN_SiLU(320,320,64) 


Vv 
| Conv2D_BN_SiLU(160,160,128) 


N: 
CSP(160,160,128) | 


v 
Conv2D_BN_SiLU(80,80,256) 


CSP(80,80,256) | Attention | 


Conv2D_BN_SiLU(40,40,512) 


Conv2D_BN_SiLU 


Concat+CSP(80,80,256) 


UpSampling2D 


| Downsample 


YOLO Head 


Conv2D_BN_SiLU(20,20,1024) 
Vv 
SPP(20,20,1024) 


Vv 


CSP(20,20,1024) o> Attention > 


UpSampling2D 


| Downsample 


A 


Conv2D |—>| Concat+CSP(40,40,512) 上 一 > YOLO Head | 
v T 
CSP(40,40,512) |} Attention | 站。 ConcatrCSP 
A 


3 9 


Conv2D 


ee 


Fig. 9 


42 ”实验 参数 设置 及 实验 环境 


DCGAN 模 型 扩充 数据 集 的 实验 


FP 所 使 用 的 数 


据 为 96 x 96 像 素 的 单 目标 图 像 , 卷 积 通道 设置 为 
64, batch_size 设 置 为 64; 模型 使 用 余弦 退火 衰减 学 


习 率 , 模型 的 最 大 学 习 率 设置 为 0.0 
设置 为 最 大 学 习 率 的 0.01; 优化 器 使 


02, 最 小 学 习 率 
Adam, 优化 


器 内 部 参数 momentum 设 置 为 0.5; 模型 为 从 零 开始 
训练 , 共 进 行 2000 轮 次 的 迭代 . 


yE 


YZ 


目标 检测 多 


的 标签 平滑 数值 设置 为 0.005 


以 防止 过 拟 合 ; 使 用 余弦 退火 衰减 学 习 率 , 模型 的 
最 大 学 习 率 设置 为 0.01, 最 小 学 习 率 设置 为 最 大 学 
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Improved YOLOX model structure diagram 


习 率 的 0.01; 模型 的 batch_size 设 置 为 4， 
JSGD 的 实验 , 优化 器 内 部 


用 迁移 学 习 . 优化 器 使 


— Concat+CSP(20,20,1024) 上 一 > YOLO Head 


后 的 YOLOX 模 型 结构 区 


并 没有 使 


momentum 参 数 设 置 为 0.937. Faster R-CNN 的 损 
RR BUA ay RMR RIZE Si tia FR eR A E VA ta, 
归 损 失 、 物 体 置信 和 度 


YOLO 系 列 的 损失 为 位 置 回 


损失 和 类 别 损失 函数 , 其 中 位 置 


回 


归 损 失 函 数 所 使 


用 的 为 CIOU (Complete Intersection Over Union) 


损失 函数 . 


本 文 所 使 用 的 为 天 文 图 像 ， 


Ne 


~ 


特征 和 其 他 数据 


开始 
络 进 


集 差 距 较 大 , 故 5 种 流行 目标 检测 
训练 . 参数 设置 调整 完成 后 将 数据 集 
行 300 轮 次 的 迭代 . 而 所 有 改进 外 


SMF 
送 入 网 
法 实验 中 使 


法 实验 
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星系 的 自 


jYOLOX 第 200 轮 次 的 参数 权重 作为 初始 权重 进 


行 训练 , 这 样 既 不 会 造成 过 拟 合 , 又 能 节省 实验 时 
间 和 计算 资源 . 并 分 别 再 利用 2.2 节 中 的 两 种 数据 


行 300 轮 次 的 和 迭代. 实验 环境 如 表 2 所 示 . 


表 2 实验 环境 
Table 2 Experimental environment 


集 进 


Attribute Attribute value 
Pytorch version 1.7.1 
Torchvision version 0.8.2 


GPU NVIDIA RTX 3080Ti 
CPU Intel (R) Xeon (R) 
E5-2640 v4 @2.40 GHz 
Internal storage 16 GB 
Operating environment Windows10 


4.3 ”实验 结果 


动 搜索 算法 一 YOLOX-CS 2 
结果 无 论 是 准确 率 、 召 回 率 、F1 和 AP 值 皆 不 如 裁 
BYR], 640 x 640 的 裁剪 图 AP 值 已 达到 96.4%, 召回 
率 也 有 95.05%. 图 像 尺 寸 过 小 也 不 方便 应 用 于 大 规 
模 的 天 文 图 像 , 因此 图 像 尺 寸 640 x 640 时 无 论 是 
从 速度 还 是 算法 性 能 角度 考虑 此 是 最 优选 择 . 


Z 


确定 使 用 的 图 像 尺寸 后 ， 本文 将 Faster R- 
CNN??6l, CenterNet”, YOLOv44, YOLOv5, 
YOLOXB 54 it 47 AY PR RE) BIE A FR 
面 亮 度 星 系 自 动 搜 寻 的 实验 中 . Faster R-CNN 使 
用 的 是 600 x 600 像 素 的 VOC 格 式 的 数据 集 , 其 余 
算法 使 用 的 皆 是 640 x 640 像 素 的 VOC 格 式 的 数 
据 集 . 图 10 展 示 了 这 5 种 流行 算法 的 PR 曲线 结果 ， 
每 个 PR 曲线 图 的 顶部 表示 类 别 为 LSBG 的 AP 值 . 
表 4 展 示 了 其 具体 的 实验 结 

从 表 4 中 可 以 看 出 Faster R-CNN 的 召回 率 是 最 
高 的 为 96.85%, 但 其 多 检 出 的 样本 为 286 个 , 而 这 
286 个 样本 并 不 能 确保 其 都 为 低 表面 亮度 星系 ， 


本 文 首先 使 用 YOLOX 算 法 对 2048 x 1489 ( 原 
图 ) 与 640 x 640 (裁剪 图 ) 进 行 对 比 实验 , 结果 如 表 3 
所 示 . 原 天 文 图 像 尺 寸 过 大 , 实验 所 使 用 时 间 大 约 
是 640 x 640 裁 前 


导致 AP 值 偏 低 及 PR 曲线 的 面积 (图 10) 过 小 . 综合 
分 析 对 比 , YOLOX 无 论 是 F1 值 还 是 AP 值 都 是 最 高 


的 , 其 召回 率 为 95.05% 故 本 文选 择 YOLOX 


和 


也 较 高 . 


¥ = 可 yk > YA 2 +h FE. 
图 实验 时 间 的 两 倍 , 同时 其 实验 算法 作为 基础 算法 进行 了 改进 提升 . 
class: 84.79% = LSBG AP class: 93.98% =LSBG AP class: 93.62% = LSBG AP 
1.0 1.0 Lop 
0.8 0.8 0.8 
Sos os Bos 
È ga È o4 È oa 
0.2 0.2 0.2 
Qo 0.2 0.4 0.6 0.8 1.0 Bo 0.2 04 0.6 0.8 1.0 Yo 0.2 0.4 0.6 08 1.0 
Recall Recall Recall 
class: 95.05% = LSBG AP class: 96.40% = LSBG AP 
1.0 10 
0.8 0.8 
È oa È oa 
0.2 0.2 
095 0.2 0.8 1.0 Go 0.2 0.8 1.0 


0.4 0.6 
Recall 


Ka 


10 Faster R-CNN CenterNet, YOLOv4. YOLOv5, YOLOX ( 


0.4 0.6 
Recall 


左 向 右 ) 的 PR 


线 对 比 


Fig.10 Comparison of PR curves of Faster R-CNN, CenterNet, YOLOv4, YOLOv5 and YOLOX (from left to right) 
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表 3 不 同 尺 寸 图 像 实验 结果 对 比 


Table 3 Comparison of experimental results of different size images 


Algorithm Imagesize AP (%) 


Precision (%) Recall (%) F1 


YOLOX 2048 x 1489 88.29 


YOLOX 640 x 640 96.40 


84.00 85.14 0.85 


95.48 95.05 0.95 


表 4 流行 目标 检测 算法 实验 结果 对 比 
Table 4 Comparison of experimental results of popular target detection algorithms 


Ds 


Algorithm Backbone AP (%) Precision (%) Recall (%) F1 DS? UDS? EDS* 
Faster R-CNN Resnet50 84.79 42.91 96.85 0.59 501 7 286 
CenterNet CSPDarknet 93.98 95.26 90.54 0.93 211 23 10 
YOLOv4 CSPDarknet 93.62 95.73 70.72 0.81 164 65 7 
YOLOv5 CSPDarknet 95.05 92.24 96.40 0.94 232 8 17 
YOLOX CSPDarknet 96.40 95.48 95.05 0.95 221 11 6 
* Detected samples; 
> Undetected samples; 
€ Excess detected samples. 
4.4 ”算法 改进 对 比 实验 使 用 SGD 优 化 器 的 YOLOX 网 络 模型 ,YOLOX-CA 
11 从 左 至 右 从 上 至 下 依次 为 YOLOX-SE 为 加 入 CA 注意 力 机 制 模块 且 使 用 SGD 优 化 器 
的 YOLOX 网 络 模型 ,YOLOX-CBA 为 加 入 CBAM 


(You Only Look Once version X-SE)、YOLOX- 
CS, YOLOX-ECA (You Only Look Once version 
X-ECA), YOLOX-CA (You Only Look Once ver- 
sion X-CA), YOLOX-CBA (You Only Look Once 
version X-CBA), YOLOX-CR (You Only Look 
Once version X-CR) 的 PR 曲线 . 将 所 有 改进 算法 
实验 结果 放 在 一 起 进行 对 比 . 如 表 5 所 示 . YOLOX- 
SE 为 加 入 SE 注意 力 机 制 模 块 且 使 用 SGD 优 化 器 的 
YOLOX 网 络 模 型 ， YOLOX-CS 为 加 入 CBAM 注 意 
力 机 制 模 块 且 使 用 SGD 优 化 器 的 YOLOX 网 络 模 
型 ，YOLOX-ECA 为 加 入 ECA 注 意 力 机 制 模块 
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块 


由 表 5 可 得 YOLOX-CS 的 综合 效果 最 优 ， 


注意 力 机 制 模 块 且 使 用 Adam 优 化 器 的 YOLOX 网 
络 模型 YOLOX-CR 为 加 入 CBAM 注 意 力 机 
使 用 RMSprop 优 化 器 的 YOLOX 网 络 模型 . 
算法 


1 模 


对 应 实验 结果 中 召回 率 为 97.75%, AP 值 为 97.83%， 


省 为 最 高 , 相 比 未 改进 前 的 模型 召回 率 提 高 


了 2.7%，AP 值 提高 了 1.43%. YOLOX-CS 算 法 未 


fi H 
EXT 


的 样本 只 有 5 个 , 且 其 召回 率 相 对 于 Yi 等 25] 
低 表面 亮度 星系 的 目标 检测 任务 中 的 最 新 
果 , 召回 率 提高 了 2.0%. 


结果 


65 卷 冯 雪 琦 等 : 一 种 低 表 面 亮 度 星系 的 自动 搜索 算法 一 YOLOX-CS 2} 
class: 96.89% = LSBG AP class: 97.83% = LSBG AP class: 93.93% = LSBG AP 
2.0 0.2 0.4 0.6 0.8 1.0 Qo 0.2 0.4 0.6 0.8 1.0 Qo 0.2 0.4 0.6 0.8 1.0 
Recall Recall Recall 
class: 96.68% = LSBG AP class: 96.73% = LSBG AP class: 97.23% = LSBG AP 
0.2 0.2 0.2 
oo 0.2 0.4 06 0.8 1.0 Bo 02 04 0.6 0.8 1.0 So 0.2 0.4 06 0.8 1.0 
Recall Recall Recall 
图 11 ”改进 算法 PR 曲线 对 比 
Fig.11 Comparison graph of improved algorithm PR curve 
表 5 算法 改进 实验 结果 对 比 
Table 5 Comparison of experimental results of improved algorithm 
Algorithm Backbone Optimizer AP (%) Precision (%) Recall (%) F1 DS UDS EDS 
YOLOX-SE CSPDarknet SGD 96.89 95.43 94.14 0.95 219 13 8 
YOLOX-CS CSPDarknet SGD 97.83 92.74 97.75 0.95 234 5 16 
YOLOX-ECA = CSPDarknet SGD 93.93 90 90.54 0.9 223 21 20 
YOLOX-CA CSPDarknet SGD 96.68 93.64 92.79 0.93 220 17 14 
YOLOX-CBA  CSPDarknet Adam 96.73 93.51 97.30 0.95 231 6 14 
YOLOX-CR CSPDarknet RMSprop 97.23 94.74 97.30 0.96 228 6 11 
因此 , 在 检测 低 表 面 亮度 星系 的 模型 中 加 入 了 未 识别 到 的 目标 及 多 检测 出 的 目标 . 其 中 未 检测 
CBAM 且 优化 器 为 SGD 的 YOLOX 算 法 是 这 些 算 到 的 原因 是 受 周围 源 的 影响 和 过 暗 , 多 检测 出 的 源 
法 模型 中 效果 最 好 的 , 本 文 详细 说 明 效 果 最 好 的 HI AREA RA EERTE. 


YOLOX-CS 所 得 到 的 具体 实验 结果 , 表 6 及 表 7 给 出 
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#6 YOLOX-CS 中 的 未 检 样 本 
Table 6 Undetected samples in YOLOX-CS 


Names of UDS Right ascension Declination Cause not detected 

002247-6-0185 188.50626 5.95278 The surrounding of target source is too bright 
003836-1-0429 213.68124 10.07472 The target source is too dark 
005087-4-0230 187.37042 27.61444 The center light around is too dark 
003894-6-0090 217.3175 11.46333 The target source is too dark 
003971-3-0156 222.05125 11.8175 The label is slightly offset by a nearby bright star 


#7 YOLOX-CS 中 的 多 检 样 本 
Table 7 Excess detected samples in YOLOX-CS 


Names of EDS Right ascension Declination SDSS ObjID 


002247-2-0110  177.226748418 4.134419836  1237655124469219850 
002247-4-0085 = 173.532677792 5.049838084  1237655125541322921 
003631-4-0286  159.491778002 13.691459043 1237661069789233531 
003631-4-0286 Because of bright stars, one galaxy is identified as two 
003836-4-0589 = 237.897132315 8.014643243 = 1237661950277387118 
003841-3-0142 186.108730462 7.113440595  1237661971186057661 
003894-6-0090 =. 217.338963335  11.504194109 1237662528456950022 
003894-6-0090 Mistaking one galaxy for two 
003900-3-0054 129.757104647 25.128424237 1237664092899049479 
003903-1-0319 = 229.123555534 6.203672333 1237662268611428698 
003903-3-0184 Because of bright stars, one galaxy is identified as two 
004576-1-0190 141.231082939  25.645112236  1237667113870098760 
004663-5-0055 The edge of a bright galaxy, detection error 
004674-6-0046 209.880843961  26.172342756  1237665550498136285 
005116-5-0101 184.839624763  25.768601437 1237667448340414589 
005308-2-0301  237.370024448  11.935897414 1237668271376630073 


4.5 DCGAN 扩 充 数据 集 的 算法 实验 结果 个 算法 的 召回 率 达 到 了 百分之百 , 没有 未 检测 

在 扩充 后 的 数据 集 上 的 实验 对 比 结果 如 表 8 所 出 的 目标 ; 所 有 算法 的 AP 值 都 达到 98% 以 上 . 其 中 
示 , 使 用 的 测试 集 和 4.3 节 、4.4 节 所 使 用 的 测试 集 ”所 有 的 算法 最 低 的 召回 率 依旧 比 未 加 入 扩充 数据 
一 致 . 集 前 最 高 的 召回 率 高 出 1.35%. 对 比 结果 说 明 , 使 

为 验证 使 用 DCGAN 模 型 扩充 数据 集 对 于 提升 用 DCGAN 模 型 扩充 数据 集 一 定 程度 上 提高 了 模型 
算法 的 有 效 性 , 对 扩充 前 后 的 结果 进行 比较 分 析 ， 对 低 表 面 亮度 星系 目标 检测 的 鲁 棒 性 . 
即 表 5 及 表 8. 扩充 数据 集 上 所 有 算法 的 召回 率 都 本 文 将 扩充 数据 集训 练 后 的 算法 权重 在 总 
达到 99% 以 上 ，YOLOX-ECA 和 YOLOX-CA 这 两 数据 集 1106 张 图 像 上 进行 测试 , 测试 结果 展示 在 


I 


Ag 
Al 
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YOLOX-CA# JE ft) A E 


表 9 中 , 所 有 算法 的 召回 


冯 雪 琦 等 : 一 种 低 表 面 亮度 星系 的 自 


| 


率 都 达到 98% 以 上 , 其 中 
率 最 高 为 98.73%，YOL- 


OX-CS 算 法 的 AP 值 最 高 为 98.64%. YOLOX-CS、 


YOLOX-ECA、YOLOX-CBA、YOLOX-CR 算 法 
回 率 仅 次 于 YOLOX-CA. 所 有 的 结果 表明 , 在 


这 


全 | 


AXE 
提升 了 算法 的 性 能 . 
有 的 实验 中 都 表现 出 较 好 的 效果 . 


He 


Z] 


像 处 


里 领域 , 引入 注意 力 机 制 模块 


其 


HYOLOX-CS 


定 程度 
法 在 所 


动 搜 索 算 法 一 YOLOX-CS 


4.6 YOLOX-CS 算 法 的 验证 


为 了 验证 此 入 
报告 的 23970 个 低 表 面 亮 度 


=I 


星系 随机 


法 的 有 效 性 , 我 们 从 文献 [23] 中 
取 19996 个 ， 


大 小 皆 为 256 x 256, 图 像 中 皆 为 单 目 标 , 并 将 图 像 


融合 到 640 x 640 的 
中 进行 检测 识别 , H 


识别 率 为 81.92%. 


表 8 DCGAN 扩 充 数 据 集 下 改进 算法 实验 结果 对 比 


图 片 中 , iit YOLOX-CS# 
中 16381 个 被 准确 i 


只 别 出 , 准确 


法 


Table 8 Comparison of experimental results of improved algorithms in DCGAN expanded dataset 


Algorithm Backbone Optimizer AP/% _ Precision/% Recall/% F1 DS UDS EDS 
YOLOX-SE CSP Darknet SGD 98.96 97.35 99.10 0.98 226 2 6 
YOLOX-CS CSP Darknet SGD 98.94 96.92 99.10 0.98 227 2 7 

YOLOX-ECA  CSPDarknet SGD 98.77 96.52 100 0.98 230 0 8 
YOLOX-CA CSPDarknet SGD 98.94 96.52 100 0.98 230 0 8 
YOLOX-CBA  CSPDarknet Adam 98.75 97.79 99.55 0.99 226 1 5 
YOLOX-CR CSPDarknet RMSprop 98.64 94.83 99.10 0.97 232 2 12 


#29 DCGAN 扩 充 数据 集 下 改进 算法 实验 结果 对 比 一 测试 集 1106 


Table 9 Comparison of experimental results of improved algorithms in DCGAN expanded 
dataset—Test set 1106 


Algorithm Backbone Optimizer AP/%  Precision/% Recall/% F1 DS UDS EDS 

YOLOX CSP Darknet SGD 98.34 96.19 98.19 0.97 1129 20 43 
YOLOX-SE CSP Darknet SGD 98.42 96.36 98.10 0.97 1126 21 41 
YOLOX-CS CSPDarknet SGD 98.64 96.63 98.37 0.97 1126 18 38 
YOLOX-ECA CSPDarknet SGD 98.19 96.37 98.37 0.97 1129 18 41 
YOLOX-CA CSPDarknet SGD 98.47 96.04 98.73 0.97 1137 14 45 
YOLOX-CBA CSPDarknet Adam 98.46 96.20 98.37 0.97 1131 18 43 
YOLOX-CR  CSPDarknet RMSprop 97.77 93.48 98.46 0.96 1165 17 76 

男 外 我 们 还 验证 了 YOLOX-CS 算 法 应 用 于 搜 。 ”天 文 图 像 , 最终 65 个 目标 被 准确 找 出 . 由 于 这 两 个 

寻 SDSS 原 天 文 图 像 (2048 x 1489) 中 低 表 面 亮 度 星 数据 集 分 别 是 暗 能 量 巡 天 和 Hyper Suprime-Cam 

系 的 性 能 , 在 23970 个 目标 中 随机 选取 其 中 50 个 目 (HSO) 巡 天 所 得 到 的 星 表 , 而 且 这 两 个 星 表 的 低 表 

标 , 找到 其 所 在 的 原 天文 图 像 , 将 其 放 入 训练 好 的 面 亮度 星系 的 判断 方式 有 所 不 同 , 故 和 训练 算法 所 

YOLOX-CS 算 法 中 进行 预测 , 最 终 23 个 目标 被 准 用 的 数据 集 存在 一 定 差异 . 其 中 巨 暗 的 低 表 面 亮 度 

确 找 出 ; 在 781 个 目标 的 中 随机 选取 100 个 目标 的 星系 很 难 被 找 出 , 因为 和 天 光 背 景 很 难 进行 区 分 . 
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5 LSBG 


最 后 , 本 文 使 用 YOLOX-CS 算 法 在 美 


候选 体 


分 测 光 数据 身 
eh 


1620 张 


RM 


国 SDSS 


上 进行 了 实际 搜寻 检测 . 我 们 选 
图 像 , 每 张 


图 像 


为 2048 x 1489. SDSS DR16B27 对 该 数据 进行 了 说 


明 , 天 区 包 


包含 


了 目标 的 标准 


BOSS (Baryon Oscil- 


lation Spectroscopic Survey) 选 择 区 域 , 在 SDSS-III 


的 14 轮 观测 中 被 归 类 为 “良好 ?观测 的 天 

首先 将 每 张 图 像 的 长 调整 尺寸 到 2166, FE Vi 
尺寸 到 1665, 然后 裁剪 为 800 x 665 大 小 的 图 
1. 通过 统计 数据 集 
像 , 只 有 12 张 超过 117 x 165 像 素 , 有 49 张 超过 
96 像 素 . 考虑 到 有 些 目标 会 


入 网 络 进行 预 涡 


x. 


在 


Z] 


证 


搜寻 到 的 低 表面 亮度 上 
进行 有 重 番 的 裁剪， 


三 | 
Æ 


peel 


AEZ 


车 165 个 像素 值 , 如 图 12 所 示 . 


将 裁剪 好 


的 Se 


全 面 的 低 表 面 亮 度 


H 


TH 


下 右 的 像素 4 


17 个 像素 值 ， 


中 的 1106 引 


片 的 边缘 ， 
系 能 够 更 加 全 面 , 对 


调整 
像 送 
K Al 
过 96 x 
为 了 保 
图 像 
纵向 重 


到 锚 相 


送 入 网 络 , 这 样 能 够 得 到 更 加 
星系 候选 体 . 接 下 来 算法 预测 出 

框 的 低 表 面 亮 度 星系 候选 体 并 得 
Kin. 由 于 所 得 


EA) EA 
到 的 为 裁剪 后 图 


像 的 


像素 坐标 , 故 利 ) 
文 图 像 2048 x 1489 的 像素 坐标 , 并 结合 
的 ?波段 的 FITS 文 件 , 利用 Python9 
句 (pixel_to_world) 将 像素 坐标 转换 为 赤 经 和 赤 纬 


| 


104 


的 的 公式 将 其 转换 为 原 


的 坐标 


合 对 应 图 
转换 语 


W. 


表 10 为 裁剪 后 图 像 中 候选 体 的 像素 坐标 转换 为 原 
天 文 图 像 中 像素 坐标 的 公式 , 00、01、02 等 代表 
图 12 中 的 图 像 位 置 编 号 , 根据 候选 体 所 在 图 像 编 号 
的 公式 对 其 坐标 值 进 行 转换 , 最 终 得 到 原 图 中 的 坐 
标 值 . 

00 10 20 

01 11 21 

PA o To o o az a z o 
图 12 en DENRA 


Fig. 12 Overlay clipping mode of original astronomical image 


表 10 候选 体 在 裁剪 图 像 中 的 坐标 转 原 图 坐标 计算 公式 


Table 10 Calculation formula for converting the coordinates of candidate in cropped images to the 


coordinates of original images 


EX. 


00, 01, 02 Formula for the x-axis (zleft + Tright) + 2 

10, 11, 12 Formula for the x-axis 683 + (zleft + Zright) + 2 

20, 21, 22 Formula for the x-axis 1366 + (Lieft + Zright) + 2 

00, 10, 20 Formula for the y-axis 1489 — (Ytop + Ybottom) + 2 

01, 11, 21 Formula for the y-axis 1489 — [500 + (ytop + Ybottom) + 2] 
02, 12, 22 Formula for the y-axis 1489 — [1000 + (ytop + Ybottom) + 2] 

DE B} 43 E AI os ZB M ap As FF AN E e AG 和 MyTable_cantry2 (包含 ObjID 信 息 的 表格 名 称 ) 
HE, 其 存在 一 定 的 误差 .| 于 是 本 文 将 转换 表格 信息 交叉 , 从 PhotoObjAll 星 表 和 SpecObjAll 
得 到 的 赤 经 和 赤 纬 信息 输入 SDSS 测 光 单 张 星 表 中 往 选 出 星系 的 基本 信息 、 各 个 波段 的 星 等 、 
图 像 查 询 网 站 以 找到 星系 的 ObjID, 最 后 我 红 移 和 星系 的 半径 等 , 之 后 以 CSV 格 式 输出 星 
们 先 将 这 些 ObjID 以 CSV 格 式 上 传 到 My DBF, 最 终 得 到 的 星系 有 868 个 , 其 中 有 195 个 有 光谱 红 移 
在 CasJobs 服 务 器 中 编写 结构 化 查询 语言 , 如 表 11. E, 另外 673 个 没有 光谱 纪 nde 的 信息 
该 查询 语句 将 PhotoObjAll 星 表 、SpecObjAll 星 表 中 心 表面 亮度 的 计算 公式 为 : 
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根据 (5) 式 , 红 移 值 的 增加 会 造成 面 亮度 的 降 
低 , 因此 本 文 对 训练 数据 集中 的 红 移 值 进行 统计 ， 
统计 得 出 其 中 最 高 红 移 值 为 0.056396667, 计算 其 
考虑 了 红 移 对 面 亮 度 的 影响 , 表面 亮度 计算 公式 最 。 ”使 :波段 中 心 面 亮 度数 值 降低 了 约 0.974%, 这 表明 
终 变 为 : 在 此 数据 集中 红 移 值 对 中 心 面 亮度 的 影响 较 小 . 在 
考虑 红 移 值 的 情况 下 中 心 面 亮 度 的 数值 只 会 减 小 ， 
uo = m + 2.5lg(2ra?) + 2.51g(b/a) — 101g(1 + 2), 因此 首先 去 除 这 868 个 候选 体 中 r 波 段 的 面 亮度 数 
(5) 值 在 21.5 mag .arcsec- 2 以 下 的 源 , 然后 去 除 重复 出 
sess ee 现 的 源 , 此 时 剩余 771 个 候选 体 . 接 下 来 将 这 771 个 
AMA BRU BS, a Be BE pe ye ye WHR RE (PALAE Jahttps://simbad.ods. 
b 为 星系 得 的 短 ih, > 为 红 移 值 ; AS . eae ys 
(4) 式 计算 出 这 868 个 候选 体 的 gr UR ER 0 
的 中 心 面 亮度 其 中 + 波段 的 面 亮度 仅 有 3 个 其 中 6 个 为 已 发 布 的 低 表面 亮度 星系 . 最 终 剩余 765 
数值 是 在 20 mag.arcsec 习 以 下 ， 有 15 个 数值 是 个 候选 体 , 其 中 157 个 有 光谱 红 移 值 . 这 157 个 有 交 
在 22 mag- arcsec? D F, 其余 样 本 r 波 段 面 亮度 谱 红 移 值 的 候选 体 中 红 移 值 最 大 为 0.3359404, 使 
E6 #69998 mag.arcsec-? 之 间 . 利用 (5) 式 计算 得 。”” 得! 波段 面 宫 度数 值 降低 了 约 4.933%, 除 此 之 外 只 
到 有 光谱 红 移 值 的 195 个 候选 体 的 波段 的 中 有 6 个 候选 体 红 移 值 在 0.1-0.2 之 间 , 其 余 皆 在 0.1 以 
心 面 亮度 ,其 中 rt 波段 的 面 亮 度 仅 有 2 个 数值 是 下 . 图 13 展 示 了 候选 体 中 6 个 示例 , 全 部 候选 体 的 
在 20 mag .arcsec- ?2 以下， 有 10 个 22 mag-arcsec~? 具体 信息 包括 赤 经 、 赤 纬 、 星 等 值 等 展示 在 网 
以 下 的 , HER AP 7E22-26 mag .arcsec- 之 间 . 址 https:// nadc.china-vo.org/res/r101207/ 中 . 


Mo = m + 2.5lg(2ra°) +2.5lg(b/a). (4) 


— 


#11 输出 ObjID 相 关 信 息 的 SQL 查询 语句 
Table 11 SQL query statements that output ObjID information 


SELECT 


p.objID, p.run, p.camcol, p.field, p.obj, p.type, 
p.ra, p.dec, p.u, p.g, p-r, p.i, p.z, 
p.petroRad_i, p.petroRad-_r, p.petroRad_g, 
s.z, 8.zErr, s.elodiez, s.class, s.sspecObjID, a.galID into mydb.MyTable 
from dr16.PhotoObjAll as p, dr16.SpecObjAll as s, mydb.MyTable_cantry2 as a 
WHERE p.objID = a.galID and p.objID = s.bestObjID 
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ObjID:{237661450922 bs | opjrp}123766113957 
516774 2 3670364 

Ra:154,162017950841 a:142. 5 Ra:161.950777048477 
Dec:40.5211216117237 250683075 Dec:41.232724866441 


630106 
m, :22.32944 5185 m,:18.3712 


Obj1D:4237661139032 Obj1p 123766185038 | onjrpl123766113957 
408339 3483422 4129267 

Ra:149.74828896275 Ra:148.517541154372 Ra:163.36911896571 
Dec:37.6482608714203 ¢:38.166210741477 Dec:41.594605788223 


m,:21. 59081 


图 13 ” 低 表面 亮度 星系 候选 体 示例 
Fig.13 Examples of Low Surface Brightness Galaxy candidates 
6 结论 表面 亮度 星系 的 候选 体 


在 天 文大 数据 处 理 中 深度 学 习 表 现 出 较为 到 
想 的 效果 , 未 来 深度 学 习 将 会 更 多 地 应 用 于 处 型 


u 
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YOLOX-CS: An Automatic Search Algorithm for Low Surface 
Brightness Galaxies 


FENG Xue-qi! TU Liang-ping!? 


ZHONG Zheng-di! 


LI Juan! LI Xin! 


(1 School of Science, University Science and Technology Liaoning, Anshan 114051) 
(2 School of Mathematics and Statistics, Minnan Normal University, Zhangzhou 363000) 


Asstract The characteristics of Low Surface Brightness Galaxies (LSBGs) are very important for 
understanding the overall characteristics of galaxies. It is of great significance to search and expand the 
samples of low surface brightness galaxies by modern machine learning, especially deep learning algorithm. 
LSBGs are difficult to discern automatically and accurately with traditional methods because of their 
obscure features. However, deep learning does have the advantage of automatically identifying complex 
and effective features. To solve this problem, an algorithm named You Only Look Once version X-CS 
(YOLOX-CS) is proposed to search LSBG in large sample sky survey. Firstly, five classical target detection 
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algorithms are compared through experiments and the optimal YOLOX algorithm is selected as the basic 
algorithm. Then, the YOLOX-CS framework is constructed by combining different attention mechanisms 
and different optimizers. The data set uses images from the Sloan Digital Sky Survey (SDSS), labelled 
from LSBG in the a.40-SDSS DR7 (the cross coverage area of 40% HI Arecibo Legacy Fast ALFA Survey 
and SDSS Data Release7) survey. Due to the small number of samples in this data set, Deep Convolutional 
Generative Adversarial Networks (DCGAN) model is used to expand the experimental test data. After 
comparing with a series of target detection algorithms, YOLOX-CS has a good test result in searching 
LSBG recall rate and Average Precision (AP) value in two data sets before and after expansion. The recall 
rate and AP value in the test set without expansion data set reach 97.75% and 97.83%, respectively. In 
the expanded data set of DCGAN model, under the same test set, the recall rate reaches 99.10% and the 
AP value reaches 98.94%, which proves that the algorithm has excellent performance in LSBG search. 
Finally, the algorithm is applied to SDSS photometric data, and 765 LSBG candidates are obtained. 


Key words galaxies: general, methods: data analysis, methods: target detection, techniques: image 
processing 
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